tg-me.com/proglib_academy/2788
Last Update:
🧐 Как устроены AI-модели для работы с изображениями
На схеме выше — карта различных подходов к пониманию изображений искусственным интеллектом. Давайте разберемся, что здесь к чему.
📍Ось Recognition: чем левее модель, тем хуже она распознает объекты
📍Ось Localization: чем левее модель, тем хуже она распознает местоположние объекта
А теперь на
• SAM — отлично знают ГДЕ, но не знают ЧТО
• SEEM/DINO — неплохо определяют положение, базово распознают объекты
• CLIP/BLIP — знают ЧТО видят, но не всегда точно ГДЕ это находится
• RAM — универсальный солдат, который знает и ЧТО, и ГДЕ
🔗 Подробнее об универсальном солдате — в статье
Proglib Academy #буст